今天要介紹的是透過 VLM 把 PDF 裡面的文字辨識出來後轉換成 Markdown 格式。這次使用的工具是 dots.ocr,是由中國的小紅書團隊開發的模型。
補充說明
部分公司或組織可能會禁止使用中國開發的軟體,請自行評估風險
筆電沒有 GPU,使用線上版操作就好 🤐
使用線上版的 dots.ocr 來進行 PDF 轉換
補充說明
雖然使用 dots.ocr 或是其他 pdf 轉換工具看起來轉換影像成文字很簡單,但因爲 PDF 內的格式很複雜,像是圖片、表格、雙欄文字等,不是很簡單的 Input 一張圖片就能轉換成想要的格式,會需要針對圖片做 layout 辨識,並且針對不同的區塊做不同的處理,不過這就太複雜了